智能论文笔记

Cross-Lingual and Cross-Domain Crisis Classification for Low-Resource Scenarios

Cinthia Sánchez , Hernan Sarmiento , Jorge Pérez , Andres Abeliuk , Barbara Poblete

分类：自然语言处理

2022-09-05

社交媒体数据已成为有关现实世界危机事件的及时信息的有用来源。与将社交媒体用于灾难管理有关的主要任务之一是自动识别与危机相关的消息。关于该主题的大多数研究都集中在特定语言中特定类型事件的数据分析上。这限制了概括现有方法的可能性，因为模型不能直接应用于新类型的事件或其他语言。在这项工作中，我们研究了通过利用跨语言和跨域标记数据来自动对与危机事件相关的消息进行分类的任务。我们的目标是利用来自高资源语言的标记数据来对其他（低资源）语言和/或新（以前看不见的）类型的危机情况进行分类。在我们的研究中，我们从文献中合并了一个大型统一数据集，其中包含多个危机事件和语言。我们的经验发现表明，确实有可能利用英语危机事件的数据来对其他语言（例如西班牙语和意大利语）（80.0％的F1得分）对相同类型的事件进行分类。此外，我们在跨语言环境中为跨域任务（80.0％F1得分）取得了良好的性能。总体而言，我们的工作有助于改善数据稀缺问题，这对于多语言危机分类非常重要。特别是，当时间是本质的时候，可以减轻紧急事件中的冷启动情况。

translated by 谷歌翻译

Adversarial attacks and defenses on ML- and hardware-based IoT device fingerprinting and identification

Pedro Miguel Sánchez Sánchez , Alberto Huertas Celdrán , Gérôme Bovet , Gregorio Martínez Pérez

分类：人工智能

2022-12-30

In the last years, the number of IoT devices deployed has suffered an undoubted explosion, reaching the scale of billions. However, some new cybersecurity issues have appeared together with this development. Some of these issues are the deployment of unauthorized devices, malicious code modification, malware deployment, or vulnerability exploitation. This fact has motivated the requirement for new device identification mechanisms based on behavior monitoring. Besides, these solutions have recently leveraged Machine and Deep Learning techniques due to the advances in this field and the increase in processing capabilities. In contrast, attackers do not stay stalled and have developed adversarial attacks focused on context modification and ML/DL evaluation evasion applied to IoT device identification solutions. This work explores the performance of hardware behavior-based individual device identification, how it is affected by possible context- and ML/DL-focused attacks, and how its resilience can be improved using defense techniques. In this sense, it proposes an LSTM-CNN architecture based on hardware performance behavior for individual device identification. Then, previous techniques have been compared with the proposed architecture using a hardware performance dataset collected from 45 Raspberry Pi devices running identical software. The LSTM-CNN improves previous solutions achieving a +0.96 average F1-Score and 0.8 minimum TPR for all devices. Afterward, context- and ML/DL-focused adversarial attacks were applied against the previous model to test its robustness. A temperature-based context attack was not able to disrupt the identification. However, some ML/DL state-of-the-art evasion attacks were successful. Finally, adversarial training and model distillation defense techniques are selected to improve the model resilience to evasion attacks, without degrading its performance.

translated by 谷歌翻译

RL and Fingerprinting to Select Moving Target Defense Mechanisms for Zero-day Attacks in IoT

Alberto Huertas Celdrán , Pedro Miguel Sánchez Sánchez , Jan von der Assen , Timo Schenk , Gérôme Bovet , Gregorio Martínez Pérez , Burkhard Stiller

分类：人工智能

2022-12-30

Cybercriminals are moving towards zero-day attacks affecting resource-constrained devices such as single-board computers (SBC). Assuming that perfect security is unrealistic, Moving Target Defense (MTD) is a promising approach to mitigate attacks by dynamically altering target attack surfaces. Still, selecting suitable MTD techniques for zero-day attacks is an open challenge. Reinforcement Learning (RL) could be an effective approach to optimize the MTD selection through trial and error, but the literature fails when i) evaluating the performance of RL and MTD solutions in real-world scenarios, ii) studying whether behavioral fingerprinting is suitable for representing SBC's states, and iii) calculating the consumption of resources in SBC. To improve these limitations, the work at hand proposes an online RL-based framework to learn the correct MTD mechanisms mitigating heterogeneous zero-day attacks in SBC. The framework considers behavioral fingerprinting to represent SBCs' states and RL to learn MTD techniques that mitigate each malicious state. It has been deployed on a real IoT crowdsensing scenario with a Raspberry Pi acting as a spectrum sensor. More in detail, the Raspberry Pi has been infected with different samples of command and control malware, rootkits, and ransomware to later select between four existing MTD techniques. A set of experiments demonstrated the suitability of the framework to learn proper MTD techniques mitigating all attacks (except a harmfulness rootkit) while consuming <1 MB of storage and utilizing <55% CPU and <80% RAM.

translated by 谷歌翻译

Known by the company we keep: `Triadic influence' as a proxy for compatibility in social relationships

Miguel Ruíz-García , Juan Ozaita , María Pereda , Antonio Alfonso , Pablo Brañas-Garza. Jose A. Cuesta , Ángel Sánchez

分类： (统计)机器学习

2022-09-08

社会互动网络是建立文明的基材。通常，我们与我们喜欢的人建立新的纽带，或者认为通过第三方的干预，我们的关系损害了。尽管它们的重要性和这些过程对我们的生活产生的巨大影响，但对它们的定量科学理解仍处于起步阶段，这主要是由于很难收集大量的社交网络数据集，包括个人属性。在这项工作中，我们对13所学校的真实社交网络进行了彻底的研究，其中3,000多名学生和60,000名宣布正面关系和负面关系，包括对所有学生的个人特征的测试。我们引入了一个度量标准 - “三合会影响”，该指标衡量了最近的邻居在其接触关系中的影响。我们使用神经网络来预测关系，并根据他们的个人属性或三合会的影响来提取两个学生是朋友或敌人的可能性。或者，我们可以使用网络结构的高维嵌入来预测关系。值得注意的是，三合会影响（一个简单的一维度量）在预测两个学生之间的关系方面达到了最高的准确性。我们假设从神经网络中提取的概率 - 三合会影响的功能和学生的个性 - 控制真实社交网络的演变，为这些系统的定量研究开辟了新的途径。

translated by 谷歌翻译

Neurosymbolic Repair for Low-Code Formula Languages

Rohan Bavishi , Harshit Joshi , José Pablo Cambronero Sánchez , Anna Fariha , Sumit Gulwani , Vu Le , Ivan Radicek , Ashish Tiwari

分类：人工智能

2022-07-24

大多数低编码平台的用户，例如Excel和PowerApps，都以特定于域的公式语言编写程序来执行非平凡的任务。用户通常可以编写他们想要的大部分程序，但是引入了一些小错误，这些错误会产生破损的公式。这些错误既可以是句法和语义，也很难让低代码用户识别和修复，即使只能通过一些编辑解决。我们正式化了产生最后一英里维修问题等编辑的问题。为了解决这个问题，我们开发了Lamirage，这是一种最后一英里的维修发动机发电机，结合了符号和神经技术，以低代码公式语言进行最后一英里维修。 Lamirage采用语法和一组特定领域的约束/规则，它们共同近似目标语言，并使用它们来生成可以用该语言修复公式的维修引擎。为了应对本地化错误和对候选维修进行排名的挑战，Lamirage利用神经技术，而它依赖于符号方法来生成候选维修。这种组合使Lamirage可以找到满足提供的语法和约束的维修，然后选择最自然的修复。我们将Lamirage与400个Real Excel和PowerFX公式的最新神经和符号方法进行了比较，其中Lamirage的表现优于所有基线。我们释放这些基准，以鼓励在低代码域中进行后续工作。

translated by 谷歌翻译

A tool to overcome technical barriers for bias assessment in human language technologies

Laura Alonso Alemany , Luciana Benotti , Lucía González , Jorge Sánchez , Beatriz Busaniche , Alexia Halvorsen , Matías Bordone

分类：自然语言处理 | 人工智能

2022-07-14

语言的自动处理在我们的生活中普遍存在，经常在我们的决策中扮演核心角色，例如为我们的消息和邮件选择措辞，翻译我们的读物，甚至与我们进行完整的对话。单词嵌入是现代自然语言处理系统的关键组成部分。它们提供了一种词的表示，从而提高了许多应用程序的性能，从而是含义的表现。单词嵌入似乎可以捕捉到原始文本中单词的含义的外观，但与此同时，它们还提炼了刻板印象和社会偏见，后来传达给最终应用。这样的偏见可能是歧视性的。检测和减轻这些偏见，以防止自动化过程的歧视行为非常重要，因为它们的规模可能比人类更有害。目前，有许多工具和技术可以检测和减轻单词嵌入中的偏见，但是它们为没有技术技能的人的参与带来了许多障碍。碰巧的是，大多数偏见专家，无论是社会科学家还是对偏见有害，没有这样的技能的环境，并且由于技术障碍而无法参与偏见检测过程。我们研究了现有工具中的障碍，并与不同种类的用户探索了它们的可能性和局限性。通过此探索，我们建议开发一种专门旨在降低技术障碍的工具，并提供探索能力，以满足愿意审核这些技术的专家，科学家和一般人的要求。

translated by 谷歌翻译

Hidden Schema Networks

Ramsés J. Sánchez , Lukas Conrads , Pascal Welke , Kostadin Cvejoski , César Ojeda

分类：自然语言处理 | 人工智能

2022-07-08

大多数现代语言模型推断出强大的表示既缺乏组成性和语义解释性。从假设很大一部分语义内容是相关的，我们引入了一种神经语言模型，该模型从文本数据集中发现符号网络（Schemata）。使用变分自动编码器（VAE）框架，我们的模型将句子编码为符号序列（组合表示），这些句子对应于偏见的随机步行者在全局潜在图上访问的节点。然后将句子生成后面，以所选符号序列为条件。我们首先证明该模型能够从随机令牌序列的人为生成的数据集中发现地面图形。接下来，我们分别以编码器和解码器为编码，利用预估计的BERT和GPT-2语言模型来培训我们的模型在语言建模任务上。从定性上讲，我们的结果表明该模型能够推断编码自然语言不同方面的模式网络。从数量上讲，该模型在VAE语言建模基准测试基准上实现了最先进的分数。可以在https://github.com/ramsesjsf/hiddenschemanetworks上获得复制我们实验的源代码。

translated by 谷歌翻译

Defending against the Label-flipping Attack in Federated Learning

Najeeb Moharram Jebreel , Josep Domingo-Ferrer , David Sánchez , Alberto Blanco-Justicia

分类：机器学习

2022-07-05

联合学习（FL）通过设计为参与同行提供了自主性和隐私，他们合作地建立了机器学习（ML）模型，同时将其私人数据保存在设备中。但是，同样的自主权通过进行不靶向或有针对性的中毒攻击来使恶意同伴毒害该模型的大门打开了大门。标签弹性（LF）攻击是一种有针对性的中毒攻击，攻击者通过将一些示例的标签从一个类（即源类）转换为另一个类别（即目标类别）来毒害他们的训练数据。不幸的是，这种攻击易于执行，难以检测，并且对全球模型的性能产生负面影响。现有针对LF的防御措施受到对同龄人数据分布和/或使用高维模型的表现不佳的假设的限制。在本文中，我们深入研究了LF攻击行为，并发现攻击者和诚实的同伴在源类示例上的矛盾目标反映在与输出层中源和目标类的相对应的参数梯度中梯度良好的攻击检测特征。因此，我们提出了一种新颖的防御，首先将这些梯度从同龄人的本地更新中动态提取，然后将提取的梯度簇，分析产生的簇，并在模型聚合之前过滤潜在的不良更新。对三个数据集的广泛经验分析显示，无论数据分布或模型维度如何，建议的防御力对LF攻击的有效性。此外，拟议的防御能力通过提供较低的测试错误，更高的总体准确性，更高的源类准确性，较低的攻击成功率和较高的源类准确性稳定性来优于几个最先进的防御能力。

translated by 谷歌翻译

AST-Probe: Recovering abstract syntax trees from hidden representations of pre-trained language models

José Antonio Hernández López , Martin Weyssow , Jesús Sánchez Cuadrado , Houari Sahraoui

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-23

预训练的语言模型的目的是学习文本数据的上下文表示。预训练的语言模型已成为自然语言处理和代码建模的主流。使用探针，一种研究隐藏矢量空间的语言特性的技术，以前的作品表明，这些预训练的语言模型在其隐藏表示中编码简单的语言特性。但是，以前的工作都没有评估这些模型是否编码编程语言的整个语法结构。在本文中，我们证明了\ textit {句法子空间}的存在，该{语法子空间}位于预训练的语言模型的隐藏表示中，其中包含编程语言的句法信息。我们表明，可以从模型的表示形式中提取此子空间，并定义一种新颖的探测方法AST-Probe，该方法可以恢复输入代码段的整个抽象语法树（AST）。在我们的实验中，我们表明这种句法子空间存在于五个最先进的预训练的语言模型中。此外，我们强调说，模型的中间层是编码大多数AST信息的模型。最后，我们估计该句法子空间的最佳大小，并表明其尺寸大大低于模型的表示空间。这表明，预训练的语言模型使用其表示空间的一小部分来编码编程语言的句法信息。

translated by 谷歌翻译

Metrics reloaded: Pitfalls and recommendations for image analysis validation

Lena Maier-Hein , Annika Reinke , Evangelia Christodoulou , Ben Glocker , Patrick Godau , Fabian Isensee , Jens Kleesiek , Michal Kozubek , Mauricio Reyes , Michael A. Riegler

分类：计算机视觉

2022-06-03

自动生物医学图像分析的领域至关重要地取决于算法验证的可靠和有意义的性能指标。但是，当前的度量使用通常是不明智的，并且不能反映基本的域名。在这里，我们提出了一个全面的框架，该框架指导研究人员以问题意识的方式选择绩效指标。具体而言，我们专注于生物医学图像分析问题，这些问题可以解释为图像，对象或像素级别的分类任务。该框架首先编译域兴趣 - 目标结构 - ，数据集和算法与输出问题相关的属性的属性与问题指纹相关，同时还将其映射到适当的问题类别，即图像级分类，语义分段，实例，实例细分或对象检测。然后，它指导用户选择和应用一组适当的验证指标的过程，同时使他们意识到与个人选择相关的潜在陷阱。在本文中，我们描述了指标重新加载推荐框架的当前状态，目的是从图像分析社区获得建设性的反馈。当前版本是在由60多个图像分析专家的国际联盟中开发的，将在社区驱动的优化之后公开作为用户友好的工具包提供。

translated by 谷歌翻译